Évolution des architectures de modèles linguistiques à grande échelle : de BERT à GPT et T5

Le trio des architectures Transformer

L'évolution des modèles linguistiques à grande échelle est marquée par un changement de paradigme: passant des modèles spécifiques à une tâche à un "pré-entraînement unifié" où une seule architecture s'adapte à plusieurs besoins en traitement du langage naturel.

Au cœur de ce changement se trouve le mécanisme d'attention auto, qui permet aux modèles de pondérer l'importance des différents mots dans une séquence :

$$Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V$$

1. Encodage uniquement (BERT)

Mécanisme :Modélisation de langage masquée (MLM).
Comportement :Contexte bidirectionnel ; le modèle "voit" toute la phrase en même temps pour prédire les mots masqués.
Meilleur pour :Compréhension du langage naturel (NLU), analyse de sentiment et reconnaissance d'entités nommées (NER).

2. Décodage uniquement (GPT)

Mécanisme :Modélisation auto-régressive.
Comportement :Traitement de gauche à droite ; prédit le mot suivant en se basant strictement sur le contexte précédent (masquage causal).
Meilleur pour :Génération de langage naturel (NLG) et écriture créative. C'est la base des modèles linguistiques modernes comme GPT-4 et Llama 3.

3. Encodage-décodage (T5)

Mécanisme :Transformateur texte-à-texte.
Comportement :Un encodage traite la chaîne d'entrée en une représentation dense, puis un décodage génère la chaîne cible.
Meilleur pour :Traduction, résumé et tâches de parité.

Point clé : La domination du décodage

L'industrie s'est largement recentrée autour des architectures décodage uniqueen raison de leurs lois d'échelle supérieures et de leurs capacités émergentes de raisonnement dans des scénarios zéro-tâche.

Impact de la fenêtre contextuelle sur la VRAM

Dans les modèles à décodage unique, le cache KVcroît linéairement avec la longueur de la séquence. Une fenêtre contextuelle de 100 k nécessite significativement plus de VRAM qu'une fenêtre de 8 k, rendant le déploiement local de modèles à long contexte difficile sans quantification.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

Why did the industry move from BERT-style encoders to GPT-style decoders for Large Language Models?

Decoders scale more effectively for generative tasks and follow-up instructions via next-token prediction.

Encoders cannot process text bidirectionally.

Decoders require less training data for classification tasks.

Encoders are incompatible with the Self-Attention mechanism.

Question 2

Which architecture treats every NLP task as a "text-to-text" problem?

Encoder-Only (BERT)

Decoder-Only (GPT)

Encoder-Decoder (T5)

Recurrent Neural Networks (RNN)

Challenge: Architectural Bottlenecks

Analyze deployment constraints based on architecture.

If you are building a model for real-time document summarization where the input is very long, explain why a Decoder-only model might be preferred over an Encoder-Decoder model in modern deployments.

Step 1

Identify the architectural bottleneck regarding context processing.

Solution:
Encoder-Decoders must process the entire long input through the encoder, then perform cross-attention in the decoder, which can be computationally heavy and complex to optimize for extremely long sequences. Decoder-only models process everything uniformly. With modern techniques like FlashAttention and KV Cache optimization, scaling the context window in a Decoder-only model is more streamlined and efficient for real-time generation.

Step 2

Justify the preference using Scaling Laws.

Solution:
Decoder-only models have demonstrated highly predictable performance improvements (Scaling Laws) when increasing parameters and training data. This massive scale unlocks "emergent abilities," allowing a single Decoder-only model to perform zero-shot summarization highly effectively without needing the task-specific fine-tuning often required by smaller Encoder-Decoder setups.